次からは,もっとややこしくなります.
対応のないデータの場合:サンプル数が異なる場合
母分散が未知で等しいかどうか不明の場合: t分布でWelch検定
を考えていきましょう.
先に述べたように,2つの母集団,
\(\Large \displaystyle N( \mu_1, \sigma_1^2), N(\mu_2, \sigma_2^2)\ \)
差の分布は,ここ,にあるように,
\(\Large \displaystyle N( \mu_1 - \mu_2, \sigma_1^2 + \sigma_2^2) \)
\(\Large \displaystyle \mu_d \equiv \mu_1 - \mu_2 \)
としました(添字を変えました)
ここでは,
母分散が未知で等しいかどうか不明
それぞれの結果平均値の確からしさを見るのだから中心極限定理を利用する
ことから,
\(\Large \displaystyle \sigma_1^2 ,\ \sigma_2^2 \rightarrow \ \frac{\sigma_1^2}{n_1}, \frac{\sigma_2^2}{n_2} \)
に変換すればいいことになります.したがって,その差分の分布は,
\( \displaystyle P_{X-Y} (z) =\frac{1}{ \sqrt{2 \pi(\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2})}} exp \left[- \frac{ \{ z-(\mu_1 \color{red}{-} \mu_2) \}^2}{2(\frac{\sigma_1^2}{n_1} + \frac{\sigma_Y^2}{n_2})} \right] \)
と表すことができます(ちゃんとした計算は,ここ,).
したがって,
\(\Large \displaystyle Z =
\frac{ ( \bar{X} - \bar{Y}) - ( \mu_1 - \mu_2)}{\sqrt{(\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }}
\sim N(0,1) \)
が標準化して区間推定すればいいことになります.
さて,ここからどうやってσという未知の値を消去してt分布に持っていくか....
まだ残念ながら私はフォローできていません......こちらのサイト,で説明がありますのでいずれ理解していきます.
とりあえず,中途半端ですが,解けました.....こちらに,
結論から言うと,統計ウェッブ,にあるように(検定ではないので,平均の差分を追加しています),
\(\Large \displaystyle t_0 = \frac{ (\overline{x}_1 - \overline{x}_2) -( \mu_1 - \mu_2)} {\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} \)
Welchの方法の自由度は
\(\Large \displaystyle f = \frac{\left( \frac{s_1^2}{n_1} + \frac{s_2^2}{n_2} \right)^2}
{\frac{ \left( \frac{s_1^2}{n_1} \right)^2}{n_1 - 1} +
\frac{\left( \frac{s_2^2}{n_2}\right)^2}{n_2 - 1}} \)
となるようです.....これは必ずしも整数になるわけではありません.
この少数をどうするか,
・t分布の値が厳しい方(ここ,)
・切り捨て(ここ,)
実用上大したことがない(自由度10以上では),自由度10以下ではそもそもデータ数が足りないのだからもっとデータ取るべき(別の検定?)などといった意見があるようです.
では,エクセルではどのような対応をしているのでしょうか?
次に,エクセルを用いたt分布について検討していきます.